09月17日AI快讯 | 腾讯推出GameGen-O：专为3A级开放世界游戏设计的新型大模型。

Original Milan看世界 AI说热点

2024-10-07

AI快讯目录

[1] 腾讯推出GameGen-O：专为3A级开放世界游戏设计的新型大模型
[2] 多邻国英语测试（DET）在中国市场的快速发展与未来展望
[3] 腾讯全球数字生态大会：AI与云计算的前沿创新
[4] OpenAI新模型o1的能力与风险评估
[5] MMMU-Pro基准测试：提升多模态语言模型评估的严谨性
[6] OpenAI o1模型的惊人表现与挑战
[7] 全球AI计算资源分布不均：GPU集中与地缘政治影响
[8] 算力竞争加剧：百度在大模型时代的应对策略
[9] CVPR审稿制度重大调整应对投稿激增挑战
[10] 虚拟世界中的智能体：Sid项目的创新与挑战

腾讯推出GameGen-O：专为3A级开放世界游戏设计的新型大模型

1. 腾讯公司推出GameGen-O，一款专注于3A级开放世界游戏生成的大模型，能够模拟知名游戏中的角色和环境，创造高质量游戏场景。

2. GameGen-O采用堆叠的时间和空间DiT架构，结合掩码注意力机制，有效处理视频数据的时间序列和空间信息，提升生成内容的连贯性和视觉吸引力。

3. 通过收集和标注超过32,000个游戏视频，GameGen-O实现了高质量的训练数据集，支持文本、操作信号和视频提示，增强了游戏内容生成的灵活性。

多邻国英语测试（DET）在中国市场的快速发展与未来展望

1. 多邻国（Duolingo）自2020年进入中国市场以来，DET已被超过70所国际高中和大学采用，服务覆盖1300多个市县，影响力显著提升。

2. 公司计划在2024年加大对中国市场的投资，专注于考生体验、品牌影响力和行业合作，以应对市场竞争。

3. DET作为全球首个线上英语水平测试，凭借低成本和广泛认可，致力于为学生提供便捷、高效的语言测试服务，推动教育数字化。

腾讯全球数字生态大会：AI与云计算的前沿创新

1. 腾讯全球数字生态大会聚焦AI与云计算，推出MoE模型腾讯混元Turbo、腾讯云智算及RAG解决方案，助力中小企业构建大模型应用。

2. 腾讯云智算作为新一代云基础设施，优化了AI高性能计算，支持多种部署方式，提升了模型训练与推理的效率。

3. 通过推出TACO加速解决方案和智能高性能网络IHN，腾讯云展示了其在AI领域的技术实力，推动行业技术发展。

OpenAI新模型o1的能力与风险评估

1. OpenAI发布的新模型o1在智商测试中表现优异，但在ARC Prize测试中未能超越Claude 3.5 Sonnet，引发对其实力的质疑。数学家陶哲轩指出，o1在复杂数学任务上仍显不足。

2. 尽管o1在某些研究任务中展现出高效率，如一位天体物理学者用其完成了大量工作，但在代码生成方面仅能处理简单版本，且使用合成数据而非真实数据。

3. o1的发布带来了潜在风险，尤其在化学和生物领域被评为“中等”。虽然其在自我推理和策划能力上有所提升，但也可能加速专家对生物威胁的搜索，需谨慎管理这些风险。

MMMU-Pro基准测试：提升多模态语言模型评估的严谨性

1. 新推出的MMMU-Pro基准测试旨在更严格地评估多模态大型语言模型（MLLMs）的理解能力，避免模型依赖统计模式和捷径。实验结果显示，模型在新测试中的表现明显下降，表明其多模态理解能力需进一步提升。

2. MMMU基准测试涵盖了多学科的多模态问题，社区反馈指出其存在文本依赖性和捷径利用的问题。MMMU-Pro通过增加候选选项和引入纯视觉输入设置，增强了问题与图像的关联性，确保模型真正理解问题。

3. 研究还探讨了OCR提示和思维链推理对模型性能的影响，发现CoT提示在某些情况下能提升性能，而OCR提示效果有限。这些发现表明，MMMU-Pro是一个更为健壮的评估工具，能够准确衡量模型的多模态理解和推理能力。

OpenAI o1模型的惊人表现与挑战

1. 加州大学欧文分校的Kyle Kabasares测试OpenAI的o1模型，发现其在一小时内完成了他一年编写的博士论文代码，尽管使用的是合成数据，但功能框架相似。

2. o1模型在解答未发布的天体物理学问题时表现出色，部分题目仅用16秒完成。Codeforces编程比赛中，选手AryanDLuffy使用o1-mini模型取得了前0.17%的优异成绩，引发主办方的担忧。

3. 陶哲轩测试发现o1模型在语义搜索方面表现优异，但创造性策略仍需改进。多篇论文探讨了模型的运作机制及其自我提升能力，强调推理时的scaling law对提升性能的重要性。

全球AI计算资源分布不均：GPU集中与地缘政治影响

1. 随着AI技术发展，GPU成为关键组件，但全球AI数据中心建设成本高昂，只有科技巨头和财力雄厚国家能参与，地缘政治影响日益显著。

2. GPU资源主要集中在美国和中国，全球AI计算供应链高度集中，Nvidia、台积电和ASML是领导者，公共云计算的地理分布不均，影响各国AI发展。

3. 美国在公共云AI计算方面领先，受出口管制和市场结构影响，形成“计算北方”和“计算南方”的差异，改善算力不均衡是长期挑战。

算力竞争加剧：百度在大模型时代的应对策略

1. 当前科技领域，算力已成为比黄金更重要的资源，OpenAI的“草莓”模型使算力需求激增，头部玩家的训练规模达到10万卡级别，算力问题愈发突出。

2. 企业需在提高算力资源堆叠和利用效率方面努力，百度提出了提升算力利用率的策略，强调精细控制算力调用环节，以应对算力浪费问题。

3. 百度通过液冷方案、RDMA网络和弹性机制等手段，提升算力利用率，解决了国内算力受限的挑战，展现了“少花钱多办事”的技术理念，为未来算力竞争做好准备。

CVPR审稿制度重大调整应对投稿激增挑战

1. CVPR会议投稿量自2020年至2024年激增，2024年首次超过一万篇，带来了审稿质量下降等问题，影响力仅次于Nature。

2. 为应对挑战，CVPR组织方实施新审稿制度，要求所有作者担任审稿人，限制每位作者最多提交25篇论文，并禁止使用大型语言模型撰写审稿意见。

3. 新规引发不同反响，部分研究者支持以提高审稿质量，但也有人担忧强制审稿可能导致不公平和审稿人数量减少。

虚拟世界中的智能体：Sid项目的创新与挑战

1. Sid项目由北大校友Robert Yang发起，创建了一个包含1000个智能体的虚拟世界，模拟真实社会结构，智能体通过宝石进行物品交换，展现自主性和组织性。

2. 项目中的智能体具备长期自主运作、与人类价值观一致的决策能力，以及有效沟通和协作的特征，推动AI的发展。

3. Altera团队致力于构建具有亲人类框架的智能体，目标是提供同理心和友谊，而非取代人类，已获得1100万美元融资并设立分店。

推荐阅读

💡添加关注，获取更多AI热点资讯～💡

感谢您的阅读，辛苦您 点赞、在看、分享！

继续滑动看下一个

AI说热点

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

现在的伊朗，为啥人人都像摩萨德？

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

09月17日AI快讯 | 腾讯推出GameGen-O：专为3A级开放世界游戏设计的新型大模型。

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

现在的伊朗，为啥人人都像摩萨德？

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

生成图片，分享到微信朋友圈

09月17日AI快讯 | 腾讯推出GameGen-O：专为3A级开放世界游戏设计的新型大模型。

您可能也对以下帖子感兴趣